2025 年可以說是 LLM 應用真正大放異彩的一年。原因在於,LLM 的使用場景早已不再侷限於像 ChatGPT 這樣的網頁聊天視窗,如今它已經延伸到 Coding IDE、雲端、離線設備,甚至更多的場域。而隨著 Agent 型 LLM 在複雜交互場景的普及,它們幾乎成了現代應用服務的「標準配備」。LLM 對自然語言的理解能力,讓我們得以在各種場景中大展身手。
沒有人能否認,LLM 在各種領域都帶來了驚喜與價值。它已經證明能在不同程度上提升人類生產力。對我這樣一個「通靈師」而言,痛點在於:即使手中擁有許多可觀測性工具,當事故突如其來時,我們依然只能憑經驗與直覺,在 Grafana 裡切換各種監控面板,從龐雜的數據中找出根因,才能解決問題。這不禁讓我聯想到 LLM 的強項不正是「消化大量資訊並給出總結」嗎?這與 DevOps / SRE 日常的基本操作如出一轍。於是,我開始動手打造一個在 Grafana 中原生運行的 LLM Agent,以提升效率並確保最佳體驗,最終誕生了類似 Cursor 的 AI 助手「Grafana Assistant」。
然而,在開發過程中我逐漸意識到,LLM 應用的自由度與其除錯難度成正比。正因為它的「自由」,輸入與輸出往往充滿不確定性,相較於傳統應用的穩定與可控,複雜度上升了不只「億點點」。對於需要穩定品質的企業場景,或高度合規的產業來說,這是一個巨大的挑戰。而「LLM 可觀測性」正是我們打開這個黑盒子、逐步建立生產級應用的必經之路。
在接下來的日子裡,我將依照自己的理解,分享一些對 LLM 世界的觀察與思考,並嘗試提煉出幾個核心議題。內容將依序涵蓋:
如果對於 Grafana 全家桶或 Kubernetes 有興趣的朋友,不彷先回頭參考一下以下系列文:
又到了鐵人賽開賽的這一天了,照慣例的預祝每個奮鬥的黑眼圈鐵人們參賽順利,能夠在這短短的幾個月中,透過研究分享最終得到突飛猛進的理解,向自己嚮往的學習目標前進。
回顧去年到今年初,我依然專注於所謂的「傳統可觀測性」領域,不斷打磨自己的觀點與理解。但 LLM 世界的爆炸性發展,直到我真正動手做了一個 LLM 應用後,才深刻衝擊了我。從第一次調用 OpenAI API,到第一次撰寫的 tool 被納入 Agent 的工具箱,我逐漸被 LLM 與各種終端的交互行為所吸引。它彷彿有問必答、全能全知,看似完美無缺,卻又暗藏著巨大的不可控性。
很多人說,未來 LLM 應用將會滲透到每一個領域。而在我看來,LLM 可觀測性就是下一個風口。或許這個判斷有些武斷,但至少我自己是買單的:)。於是,在這一屆鐵人賽,就跟著我一起走進這個充滿不確定性的世界,嘗試理解、擁抱,並與之共舞。